Maia 200: El acelerador de IA diseñado para la inferencia
Por: Scott Guthrie – Vicepresidente ejecutivo, Nube + IA
Hoy nos enorgullece presentar Maia 200, un innovador acelerador de inferencia diseñado para optimizar drásticamente la economía de la generación de tokens de IA. Maia 200 es una potencia de inferencia de IA: un acelerador basado en el proceso de 3 nm de TSMC con núcleos tensoriales FP8/FP4 nativos, un sistema de memoria rediseñado con 216 GB de HBM3e a 7 TB/s y 272 MB de SRAM en chip, además de motores de movimiento de datos que mantienen modelos masivos alimentados, rápidos y altamente utilizados. Esto convierte a Maia 200 en el silicio propio de mayor rendimiento de cualquier hiperescalador, con tres veces el rendimiento FP4 del Amazon Trainium de tercera generación y un rendimiento FP8 superior al TPU de séptima generación de Google. Maia 200 es también el sistema de inferencia más eficiente que Microsoft ha implementado hasta la fecha, con un 30 % más de rendimiento por dólar que el hardware de última generación de nuestra flota actual.
Maia 200 forma parte de nuestra infraestructura heterogénea de IA y prestará servicio a múltiples modelos, incluyendo los últimos modelos GPT-5.2 de OpenAI, lo que aporta una ventaja en el rendimiento por dólar a Microsoft Foundry y Microsoft 365 Copilot. El equipo de Superinteligencia de Microsoft utilizará Maia 200 para la generación de datos sintéticos y el aprendizaje de refuerzo con el fin de mejorar los modelos internos de próxima generación. Para los casos de uso de canalización de datos sintéticos, el diseño único de Maia 200 ayuda a acelerar la generación y el filtrado de datos de alta calidad y específicos del dominio, alimentando el entrenamiento posterior con señales más actualizadas y específicas.
Maia 200 se implementa en nuestra región de centros de datos del Centro de EE. UU., cerca de Des Moines, Iowa. Próximamente se implementará la región de centros de datos del Oeste de EE. UU. 3, cerca de Phoenix, Arizona, y próximamente se implementarán otras regiones. Maia 200 se integra a la perfección con Azure, y estamos presentando una vista previa del SDK de Maia con un conjunto completo de herramientas para crear y optimizar modelos para Maia 200. Incluye un conjunto completo de funciones, como la integración con PyTorch, un compilador Triton y una biblioteca de kernel optimizada, así como acceso al lenguaje de programación de bajo nivel de Maia. Esto proporciona a los desarrolladores un control preciso cuando lo necesitan, a la vez que facilita la migración de modelos a aceleradores de hardware heterogéneos.
Diseñado para la inferencia de IA
Fabricado con el vanguardista proceso de 3 nanómetros de TSMC, cada chip Maia 200 contiene más de 140 000 millones de transistores y está diseñado para cargas de trabajo de IA a gran escala, a la vez que ofrece un rendimiento eficiente por dólar. En ambos aspectos, Maia 200 está diseñado para destacar. Está diseñado para los modelos más recientes que utilizan computación de baja precisión, y cada chip Maia 200 ofrece más de 10 petaFLOPS en precisión de 4 bits (FP4) y más de 5 petaFLOPS en rendimiento de 8 bits (FP8), todo ello con un TDP de SoC de 750 W. En la práctica, Maia 200 puede ejecutar sin problemas los modelos más grandes de la actualidad, con amplio margen para modelos aún mayores en el futuro.

Fundamentalmente, los FLOPS no son el único ingrediente para una IA más rápida. La alimentación de datos es igualmente importante. Maia 200 aborda este cuello de botella con un subsistema de memoria rediseñado. Este subsistema se centra en tipos de datos de precisión limitada, un motor DMA especializado, SRAM integrada y una estructura NoC especializada para el movimiento de datos de alto ancho de banda, lo que aumenta el rendimiento de los tokens.
Sistemas de IA optimizados
A nivel de sistemas, Maia 200 presenta un novedoso diseño de red escalable de dos niveles basado en Ethernet estándar. Una capa de transporte personalizada y una NIC estrechamente integrada desbloquean el rendimiento, una gran confiabilidad y significativas ventajas en costos sin depender de estructuras propietarias
Cada acelerador expone:
- 2.8 TB/s de ancho de banda de escalamiento bidireccional dedicado
- Operaciones colectivas predecibles y de alto rendimiento en clústeres de hasta 6144 aceleradores
Esta arquitectura ofrece un rendimiento escalable para clústeres de inferencia densos al tiempo que reduce el consumo de energía y el TCO general en toda la flota global de Azure.
Dentro de cada bandeja, cuatro aceleradores Maia están completamente conectados mediante enlaces directos no conmutados, lo que mantiene la comunicación local de alto ancho de banda para una eficiencia de inferencia óptima. Se utilizan los mismos protocolos de comunicación para la conexión en red intra-rack e inter-rack mediante el protocolo de transporte Maia AI, lo que permite un escalado fluido entre nodos, racks y clústeres de aceleradores con mínimos saltos de red. Esta estructura unificada simplifica la programación, mejora la flexibilidad de la carga de trabajo y reduce la capacidad no utilizada, a la vez que mantiene un rendimiento constante y una rentabilidad óptima a escala de la nube.
Un enfoque de desarrollo nativo de la nube
Un principio fundamental de los programas de desarrollo de silicio de Microsoft es validar la mayor parte posible del sistema de extremo a extremo antes de la disponibilidad final del silicio.
Un sofisticado entorno presilicio guió la arquitectura Maia 200 desde sus primeras etapas, modelando los patrones de computación y comunicación de los LLM con alta fidelidad. Este entorno de codesarrollo temprano nos permitió optimizar el silicio, las redes y el software del sistema como un todo unificado, mucho antes del primer silicio.
También diseñamos Maia 200 para una disponibilidad rápida y fluida en el centro de datos desde el principio, implementando la validación temprana de algunos de los elementos más complejos del sistema, como la red de backend y nuestra unidad de intercambio de calor de circuito cerrado de segunda generación con refrigeración líquida. La integración nativa con el plano de control de Azure ofrece seguridad, telemetría, diagnóstico y funciones de gestión tanto a nivel de chip como de rack, maximizando la fiabilidad y el tiempo de actividad de las cargas de trabajo de IA esenciales para la producción.
Como resultado de estas inversiones, los modelos de IA se ejecutaban en silicio Maia 200 a los pocos días de la llegada de la primera pieza empaquetada. El tiempo transcurrido desde el primer silicio hasta la implementación del primer rack en el centro de datos se redujo a menos de la mitad que con programas de infraestructura de IA comparables. Y este enfoque integral, desde el chip hasta el software y el centro de datos, se traduce directamente en una mayor utilización, una producción más rápida y mejoras sostenidas en el rendimiento por dólar y por vatio a escala de la nube.
Regístrese para obtener la vista previa del SDK de Maia
La era de la IA a gran escala apenas comienza, y la infraestructura definirá lo que es posible. Nuestro programa acelerador de IA Maia está diseñado para ser multigeneracional. Al implementar Maia 200 en nuestra infraestructura global, ya estamos diseñando para las generaciones futuras y esperamos que cada generación marque nuevos hitos en lo que es posible y ofrezca un rendimiento y una eficiencia cada vez mejores para las cargas de trabajo de IA más importantes.
Hoy invitamos a desarrolladores, startups de IA y académicos a explorar la optimización temprana de modelos y cargas de trabajo con el nuevo kit de desarrollo de software (SDK) Maia 200. El SDK incluye un compilador Triton, compatibilidad con PyTorch, programación de bajo nivel en NPL y un simulador y calculadora de costos de Maia para optimizar la eficiencia en las primeras etapas del ciclo de vida del código. Regístrese para obtener la vista previa aquí .




